自動將網站數據提取到 Excel 或 Database

#excel webservice 數據分析大數據應用網絡爬蟲

melisa 2020-07-17 11:52:04 ‧ 4329 瀏覽

分享至

點擊原文章或更多博客内容：Herramienta de Scraping
要從網站提取數據，可以使用Octoparse之類的數據提取工具。這些工具可以自動提取網站數據並將其保存為多種格式，例如Excel，JSON，CSV，HTML或通過API保存在其自己的數據庫中。只需幾分鐘即可提取數千行數據，最好的是，在此過程中不需要編碼。

目錄
方法1：使用網頁爬蟲模板進行簡單提取
方法2：使用高級模式自定義提取

以Google搜索為例。如果我們對有關“ smoothie”的信息感興趣，並希望從搜索結果中提取所有標題，描述和URL。要從Google搜索中提取數據，您可以使用網絡抓取模板。該模板是一種預格式化的搜尋器，無需任何配置即可使用。有超過50種模板可供選擇。您將看到從電子商務網站（如亞馬遜和eBay）到社交媒體渠道（如Facebook，Twitter和Instagram）的所有模板。Octoparse還提供自定義模板。

方法1：使用Web爬網模板進行簡單提取
一：選擇網絡爬蟲模板

要使用該模板，您需要在計算機上安裝Octoparse。選擇“任務模板”模式。轉到“搜索引擎”類別中的Google搜索網絡抓取模板，請便看視頻便查閲文本教程：

二：閱讀模板說明

打開模板。檢查說明和示例輸出，以確保此模板將為您提供所需的數據。您可以將鼠標懸停在數據字段上，以查看將提取哪些網站元素。

檢查參數以更好地了解您需要輸入什麼。這些參數在不同的模板之間會有所不同，因為它們需要不同的搜索詞才能繼續。它可以是URL，關鍵字，關鍵詞網址列表，要獲取的頁面數等。在這種情況下，我們必須輸入搜索詞“ smoothie”

三：使用模板並開始數據提取

繼續單擊“使用模板”，然後輸入“ smoothie”並單擊“保存並運行”。如果這是一個一次性項目，則只需選擇本地運行。而如果您正在管理一個正在進行的項目，則可以在Octoparse雲端平台上提取數據。提取後，您可以將其導出為多種格式，例如Excel，CSV和txt。

我們剛剛介紹瞭如何使用網絡抓取模板從Google搜索中提取網絡數據。您也可以使用“高級模式”創建自己的搜尋器。您可能需要一些設置，但是在數據提取方面非常靈活。

方法2：使用高級模式自定義提取
一：輸入目標網址以創建抓取規則

如果您嘗試大規模提取數據，則可以在框中輸入最多10,000個URL的列表。在這種情況下，由於我們僅抓取一個網站，因此將目標URL粘貼到框中，然後單擊“保存URL”以繼續。

二：創建一個分頁循環

將瀏覽器更改為Firefox45，將網頁加載到内置瀏覽器中。然後，我們必須通過單擊“下一步”頁面按鈕並在“操作提示”面板中選擇“循環單擊下一頁”來創建分頁。您將在工作流程區域中看到我們剛剛創建的分頁循環。

三：提取數據並開始提取

現在我們可以提取數據。單擊搜索結果的標題，然後單擊“全選”。選擇所有標題後，它們將以綠色突出顯示。單擊“提取所選元素的文本”以提取所有標題。讓我們暫停一下以查看工作流程。如您所見，我們剛剛在分頁週期內構建了一個提取循環。整個提取過程將以這種方式進行：op將首先打開網頁，一步一步提取第一頁上的標題，然後轉到下一頁重複提取，直到提取停止或完成。

除了Google之外，數據提取工具還可以從許多其他網站提取數據，並且已在所有行業中廣泛使用。例如，公司可以從Yellowpages，Yelp和Google提取地圖以產生銷售線索。您可以檢查數據提取的其他用途和應用程序。